摘要: 在当前调查环境和互联网发展的背景下,线上、线下混合调查的方式得到广泛应用。如何将两方面数据相融合,减少信息浪费,合理利用数据资源,得到有效且精度高的估计结果,是大数据背景下调查数据推断面临的严峻挑战。本文针对线上样本是非概率样本、线下样本是概率样本的情况,提出了进行数据融合的基本思路:一是对非概率样本进行“概率性检验”,进而将两类数据结合在一起进行统计推断;二是利用概率样本中提供的信息,对非概率样本进行“伪随机化”。本文针对第二种思路,以基于倾向得分伪权数的校准估计为例,探讨了具体的解决方法及变量选择问题,并通过模拟进行验证。